Чек-лист самопроверки
Разработчику
Аналитику
Тестировщику
Архитектору
Инженеру
Чек-лист самопроверки
- Могу ли я чётко сформулировать цель аналитического проекта в терминах бизнеса?
- Понимаю ли я разницу между операционными (OLTP) и аналитическими (OLAP) данными?
- Умею ли я определить, какие источники данных релевантны для поставленной задачи?
- Знаю ли я, как оценить качество данных: полноту, согласованность, актуальность?
- Могу ли я выполнить очистку данных: обработать пропуски, удалить дубликаты, исправить выбросы?
- Понимаю ли я принципы нормализации и денормализации данных?
- Умею ли я строить схемы «звезда» и «снежинка» для хранилищ данных?
- Знаю ли я, когда использовать data lake, а когда — data warehouse?
- Могу ли я объяснить разницу между ETL и ELT?
- Понимаю ли я, как работает жизненный цикл аналитического проекта (например, CRISP-DM)?
- Умею ли я проводить исследовательский анализ данных (EDA)?
- Знаю ли я основные статистические показатели: среднее, медиана, мода, дисперсия, квартили?
- Могу ли я визуализировать распределение данных: гистограммы, box-plot, Q-Q plot?
- Умею ли я выявлять и интерпретировать корреляции между переменными?
- Понимаю ли я разницу между корреляцией и причинно-следственной связью?
- Знаю ли я, как проверить гипотезу с помощью статистических тестов?
- Могу ли я построить и интерпретировать сводную таблицу (pivot table)?
- Умею ли я работать с временными рядами: выделять тренд, сезонность, остаток?
- Понимаю ли я, что такое стационарность временного ряда и как её проверить?
- Знаю ли я основные задачи машинного обучения: классификация, регрессия, кластеризация?
- Могу ли я выбрать подходящий алгоритм для конкретной задачи?
- Умею ли я оценивать качество модели: accuracy, precision, recall, F1, AUC-ROC?
- Понимаю ли я, что такое переобучение и недообучение модели?
- Знаю ли я методы борьбы с переобучением: регуляризация, кросс-валидация?
- Могу ли я объяснить, как работает кросс-валидация?
- Умею ли я интерпретировать важность признаков (feature importance) в модели?
- Понимаю ли я, что такое data drift и concept drift?
- Знаю ли я, как мониторить качество модели в production?
- Могу ли я построить многомерный куб (OLAP cube)?
- Умею ли я писать выражения на языке DAX?
- Понимаю ли я разницу между мерой и вычисляемым столбцом в Power BI?
- Знаю ли я, как работает контекст фильтрации в DAX?
- Могу ли я создать семантическую модель данных для self-service аналитики?
- Умею ли я проектировать интерактивные дашборды с учётом принципов визуальной грамотности?
- Понимаю ли я, как избежать визуальных искажений на графиках?
- Знаю ли я основные типы ассоциативных правил и как их оценивать (support, confidence, lift)?
- Могу ли я применить алгоритм кластеризации и оценить качество разбиения?
- Умею ли я обнаруживать аномалии в данных с помощью статистических и ML-методов?
- Понимаю ли я, как работает анализ последовательностей (sequence mining)?
- Знаю ли я различия между Web Content, Web Structure и Web Usage Mining?
- Могу ли я спроектировать пайплайн для автоматизированного анализа?
- Умею ли я документировать аналитический процесс: гипотезы, методы, ограничения?
- Понимаю ли я этические риски при работе с персональными и биометрическими данными?
- Знаю ли я требования законодательства (ФЗ-152, GDPR) к обработке персональных данных?
- Могу ли я применить методы анонимизации: k-anonymity, дифференциальная приватность?
- Умею ли я различать легальный и нелегальный дата-майнинг?
- Понимаю ли я когнитивные искажения, которые могут исказить выводы (overfitting, survivorship bias)?
- Знаю ли я, как проверить, не является ли найденная закономерность случайной (multiple testing correction)?
- Могу ли я объяснить результаты анализа нетехнической аудитории?
- Готов ли я признать, что данные не всегда дают однозначный ответ, и что требуется смирение перед неопределённостью?